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Abstract Of DE19926538 

The hardware has a decoupled configuration register and performs programs on a component with a 
single or multi-dimensional cell structure. Data flow or control flow graphs are partitioned into time- 
separated sub-graphs and formed sequentially and implemented on the component. An Independent 
claim is also included for a method for performing programs on a component with a single or multi- 
dimensional cell structure. 
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@ Die Erfindung betrifft eine ein- oder mehrdimensionale 
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Beschreibung 

Aufgabe der Hrfindung und Anwendungsbereiche 

5 Die vorliegende Erfindung erstreckt sich auf das Gebiet von programmierbaren und insbesondere wahrend des Betrie- 
bes umprogrammierbaren arithmetischen und/oder logischen Bausteinen mit Vielzahl von arithmetischen und/oder logi- 
schcn Einheiten, deren Vcrschaltung ebenfalls programmicrbar und wahrend des Betricbcs umprogrammierbar ist. Der- 
artige logische Bausteine sind unter dem OberbegrifF FPGA von verschiedenen Firmen verfugbar. Weiterhin sind meh- 
rere Patente veroffentlicht, die spezielle arithmetische Bausteine mit autonnatischerDatensynchronisation und verbesser- 
10 ten offcnlcgcn. 

Saiiilliche beschriebene Bausteine besilzen eine zwei- oder inehrdimensionale Anordnung von logischen und/oder 
arithmetischen Einheiten, die uber Bussysteme miteinander verschaltbar sind 

Aufgabe der Erfindung ist cs, cin Programmicrvcrfahrcn zur VerfUgung zu slcUcn, das cs ermSglichl die bcschricbcncn 
Bausteine in gewdhnlichen Hochsprachen eflizient zu progranunieren und dabei die Vorteile der durch die Vielzahl von 
IS Einheiten entstehende Parallelitat der beschriebenen Bausteine weitgehend automatisch, vollstandig und eflizient zu nut- 
zen. 

Stand der Technik 

20 Bausteine der genanntcn Gattung werdcn zumcist untcr Vcrwcndung gcwohnlichcr Datenflussprachcn programmiert. 
Dabei ireten zwei grundlegende Probleme auf: 

1 . Die Programmicrung in Datenflussprachcn ist fiir Programmiercr gcwdhnungsbedurftig, tief sequenticlle Aufga- 
ben lassen sich nur sehr umstandlich beschreiben. 
25 2, GroBe Applikationen und sequentielle Beschreibungen lassen sich mit den bestehenden t)bersetzungsprogram- 
men (Synthese-Tools) nur bedingt auf die gewiinschte Zieltechnologie abbilden (synthetisieren). 

Fiir gewohnlich werden Applikationen in mehrere Tfeilapplikationen partitioniert, die dann einzeb auf die Zieltechno- 
logie synthctisicrt werdcn (Fig. 1). Die einzelncn Binarcodcs werden dann auf jcwcils cincn Baustein gcladcn. Wesent- 
30 liche Voraussetzung der Erfindung ist das in DE 44 16 881 beschriebene Verfahren, das es ermoglicht, mehrere partitio- 
nierte TeilappUkationen innerhalb eines Bausteines zu nutzen, indem die zeitliche Abhangigkeit analysiert wird und iiber 
Steuersignale sequentiell die jeweils erforderlichen Teilapplikationen bei einer ubei^eordneten Ladeeinheit angefordert 
und von dieser daraufhin auf den Baustein geladen werden. 
Existierende Synthese-Tools sind nur bedingt in der Lage Programm-Schleifen auf Bausteine abzubilden (Fig. 2 
35 (0201)). 

Dabei werdcn sogenanntc FOR-Schleifen (0202) als Primitiv-Schleife hSufig noch dadurch untcrstutzt, daB die 
Schleife vollkommen auf die Ressourcen des Zielbausteines ausgewalzt werden. 

WHTLE-Schleifen (0203) besitzen im Gegensatz zu FOR-Schleifen keinen konslanten Abbruchswert. Vielmehr wird 
durch eine Bedingung evaluicrt, wann der Schlcifcnabbruch stattfindet. Dahcr ist gcwohnlicherweisc (wcnn die Bedin- 
40 gung nichl konstant ist) zur Synthesezeit nicht bekannt, wenn die Schleife abbricht. Durch das dynainische \ferhalten 
konnen Synthese-Tools diese Schleifen nicht fest auf Hardware abgebildet d. h. auf einen Zielbaustein Obertragen wer- 
den. 

Rekursionen sind grundsatzlich nicht auf Hardware abbildbar, wann die Rekursionstiefe nicht zur Synthesezeit be- 
kannt und damit konstant ist. Bei der Rekursion werden mit jeder neuen Rekursionsebene neue Ressourcen allokiert. Das 
45 wurdc bcdcutcn, daB mit jeder Rekursionsebene neue Hardware zur Verfiigung gcstellt werden muB, was abcr dynamisch 

nicht moglich ist. 

Selbst einfache Grundstrukturen sind von Synthesetools nur dann abbildbar, wenn der Zielbaustein ausreichend grofi 
ist, d. h. ausreichende Ressourcen bietet. 

Einfache zeitliche Abhangigkeiten (0301) werden durch heutige Synthese-Tools nicht in mehrere 'l^ilapplikationen 
50 partitioniert und sind deshalb nur als Ganzes auf einen Zielbaustein ubertragbar. 

Bedingte Ausfiihrungen (0302) und Schleifen iiber Bedingungen (0303) sind ebenfalls nur abbildbar, wenn ausrei- 
chende Ressourcen auf dem Zielbaustein existicrcn. 

ErfindungsgemaBes Verfahren 

55 

Durch das in DE 44 16 881 beschriebene Verfahren isl es moglich Bedingungen zur Lau^it innerhalb der Hardware- 
strukturen der genannten Bausteine zu erkennen und derart dynamisch darauf zu reagieren, daB die Funktion der Hard- 
ware entsprechend der eingetretenen Bedingung modifiziert wird, was im wesentlichen durch das Konfigurieren einer 
neuen Struktur geschieht. 

60 Ein wesentlicher Schritt in dem erfindungsgemaBen Verfahren ist die Partitionierung von Graphen in zeitlich unabhan- 

gigc Tcilgraphcn. 

Der Begriff "zeitliche Unabhangigkeit" wird damit definiert, dafi die Daten, die zwischen zwei Teilapplikationen iiber- 
tragen werden durch einen Speicher, gleich welcher Ausgestaltung (also auch mittels einfacher Register), entkoppelt 
werden. Die ist besonders an den Stellen eines Graphen moglich, an denen eine klare Schnittstelle mit einer begrenzten 
65 und moglichst minimalcn Mcngc von Signalen zwischen den bciden Teilapplikationen bcsteht. 

Die zeitliche Unabhangigkeit kann in groBen Graphen durch das gezielte Einfugen von klar definierten und mbglichste 
einfachen Schnittstellen zum Speichem von Daten in einen Zwischenspeicher herbeigefuhrt werden (vgL Sq in Fig. 4). 
Schleifen weiscn grundsatzlich cine starkc zeitliche Unabh^gigkcit auf, da sic langc Zcit uber einer bcstimmtcn Menge 
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von (zuineist) in der Schleife lokalen Variablen arbeiten und nur beim Schleifeneintritt und beiin verlassen der Schleife 
eine Ubertragung der Operanden bzw. des Ergebnisses erfordern. 

Durch die zeitliche UnabhSngigkeit wird erreicht, dafi nach der voUstandigen Ausfiihrung einer Tfeilapplikation die 
nachfolgende Teilapplikation geladen werden kann, ohne dafi iigendwelche weiteren Abhangigkeiten oder Einflusse auf- 
treten. Beim Speichem der Daten in den genannten Speicher kann ein Signal (THgger) generiert werden, das die iiberge- 5 
ordneten Ladeeinheit zum Nachladen der nachsten Teilapplikation auffordert. Der Trigger kann bei der Verwendung von 
einfachcn Rcgistern ais Speicher immcr generiert werden, wenn das Register beschriebcn wird. Bei der Verwendung von 
Speichem, i. b. von solchen die nach dem FIFO-Prinzip arbeiten, ist die Generierung des TViggers von rachreren Bedin- 
gungen abhangig. 

Folgendc Bcdingungen konnen bcispielsweise cinzeln oder kombinicrt ein IVigger erzcugen; to 

- Ergebnis- Speicher voll 

- Operandcn-Spcichcr leer 

- keine neuen Operanden 

- Beliebige Bedingung innerhalb der Teilapplikation, generiert durch z. B. is 

- Vei^leicher 

- Zahler. 

Eine Teilapplikation wird im folgenden auch Modul genannt, um die Verstandlichkeit aus Sicht der klassischen Pro- 
grammierung zu crhohcn. Aus demsclben Grund werden Signalc im folgenden auch Variablen genannt. Dabei untcr- 20 
scheiden sich die Variablen in einem Punkt wesentlich von herkommlichen Variablen: Jeder Variable ist ein Statussignal 
(Ready) zugeordnet, das anzeigt, ob die Variable einen giiltigen Wert besitzt. Wenn ein Signal einen giiltigen (berechne- 
ten) Wert besitzt, ist das Statussignal Ready; wenn das Signal kcinen giiltigen Wert besitzt (Bercchnung noch nicht ab- 
geschlossen), ist das Statussignal Not^Ready. Das Prinzip ist ausfuhrlich in der Patentanmeldung PAC1X)2 beschrieben. 

25 

Das Prozessormodell 

Die in den folgenden Figuren gezeigten Graphen besitzen als Graphenknoten immer in Modul, wobei davon ausge- 
gangcn wird, dafi mchrcrc Module auf einen Ziclbaustein abgebildet werden konnen. Das hcifit, obwohl alle Module zeit- 
lich voneinander unabhangig sind, wird nur bei nach den Modulen eine Umkonfiguration durchgefuhrt, bzw. ein Daten- 30 
speicher eingefiigt, die mit einem vertikalen Strich und At markiert sind. Dieser Punkt wird Umkonfigurationszeitpunkt 
genannt. 

Das bedeutet zusaminenfassend: 

1 . GroBe Module konnen an geeigneten Stellen partitioniert werden und in kleine zeitlich voneinander unabhangige 35 
Module zerlcgt werden. 

2. Bei kleinen Modulen die sich gemeinsam auf einen Zielbaustein abgebildet werden konnen, wird auf die zeitli- 
che Unabhangigkeit verzichtet. Dadurch werden Konfigurationsschritle eingespart und die Datenverarbeitung be- 

schlcunigt. 

3. Die Umkonfigurdtionszeitpunkie werden entsprechend der Ressourcen der Zielbausteine positioniert. Dadurch 40 
ist eine beliebige Skalierung der Graphenlange gegeben. 

In Fig. 4a sind einige grundlegenden Eigenschaften des erfindungsgemaBen Verfahrens dargesleUt: 
Die Module des Types A sind zu einer Gruppe zusammengefafit und besitzen am Ende einen bedingten Sprung, entweder 
nach Bl oder B2. An dicser Position (0401) ist ein Umkonfigurationspunkt eingefugt, da cs sinnvoll ist die Zwcige des 45 
bedingten Sprunges als jeweils eine Gruppe zu betrachten (Fall 1). Wurden dagegen beide Zweige von B (Bl und B2) zu- 
satzlich zu A auf den Zielbaustein passen (Fall 2), ware es sinnvoll nur einen Umkonfiguradonspunkt bei 0402 einzufu- 
gen, da dadurch die Zahl der Konfigurationen verringert wird und sich die Verarbeitungsgeschwindigkeit erhoht. Beide 
Zweige (Bl und B2) springen bei 0402 nach C. 

Die Konfiguration der Zellen auf dein Zielbaustein ist in Fig. 4b schematisch dargestellt. Dabei werden die Funktionen 50 
der einzelnen Graphenknoten auf die Zellen des Zielbausteins abgebildet. Jeweils eine Zeile stellt eine Konfiguration dan 
Die gestricheltcn Pfcile bei einem Zcilcnwcchsel zeigcn cine Umkonfiguration. Sn ist eine datenspeichcrnde Zclle, von 
beliebiger Ausgestaltung (Register, Speicher, etc). Dabei ist SnI ein Speicher, der Daten entgegennimmt und SqO ein 
Speicher der Daten ausgibt. Der Speicher Sn ist fur gleiche n jeweils derselbe, I und O kennzeichnen die Datentransfer- 
richtung. 55 

Beide Falle des bedingten Sprunges (Fall 1, Fall 2) sind dargestellt. 

Das Model! in Fig. 4 entspricht einem DatenfluBmodell, jedoch mit der wesenUichen Erweiterung der Umkonfigura- 
tionspunkt und der damit erreichbaren Partitionierung des Graphen, wobei die zwischen den Partitionen ubertragenen 
Daten zwischengespeichert werden. 

Im Modell von Fig. 5a wird aus einer beliebigen Graphenmenge und -Konstellation (0501) selekdv ein Graph aus ei- 60 
ncr Mengc von Graphen B aufgcrufcn. Nach der Ausfiihrung von B gelangen die Daten nach 0501 zuriick. 

Wird in 0501 ein ausreichend groBer Sequencer (A) implementiert, ist mit dem Modell ein den typischen Prozessoren 
sehr ahnliches Prinzip implementierbar. Dabei gelangen 

1. Daten in den Scquenzcr A, die dieser ais Bcfehle dekodiert und entsprechend dem "von Neumann"-Prinzip dar- 65 
auf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden und an ein fest konfiguriertes Rechenwerk C zur Be- 
rechnung wcitergclcitet werden. 
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Ver Graph B stellt seLekderbar ein besonderes Rechenwerke und/oder besonderc Opcodes fur bestimmte Funktionen 
zur Verfiigung und wird altemativ zur Beschleunigung von C verwendet. Beispielsweise kann Bl ein optimierter Algo- 
rithmus zu Berechnung von MatrixmultiplikaLionen sein, wahrend B2 einen FIR-Filter und B3 eine Muslererkennung 
5 darstelll. Entsprechend eines Opcodes der von 0501 dekodiert wird, wird der geeignete bzw, entsprechende Graph B auf- 
gerufen. 

Fig, 5b schcmatisicrt die Abbildung auf die cinzcinen Zcllen, wobei in 0502 der pipelincartigc Rcchenwcrks-Charac- 
ter symbolisiert wird. 

Wahrend in den Umkonfigurationspunkten von Fig, 4 vorzugsweise groBere Speicher zum Zwischenspeichem der Da- 
10 ten eingefiigt werdcn, ist cine einfache Synchronisation der Daten in den Umkonfigurationspunkten von Fig. 5 ausrei- 
chend, da der Datenslrom vorzugsweise als ganzer durch den Graphen B lauft und der Graph B nicht weiter parti tioniert 
ist; dadurch ist das Zwischenspeichem der Daten uberfliissig. 

In Fig. 6a sind vcrschicdcnc Schlcifen dargcstcllt. Schlcifcn konncn grundsatzlich auf drei Artcn behandelt werdcn: 

15 1 . Hardware- Ansatz: Schleifen weiden vollstandig ausgewalzt auf die Selhardware abgebildet (0601a/b). Wie be- 
reits erlautert ist dies nur bei wenigen Schleifenarten moglich. 

2, DatenfluB-Ansatz: Innerhalb der Datenflusses werden Schleifen uber mehrere Zellen hinweg aufgebaut 
(0602a^). Das Ende der Schleife wird auf den Schleifenanfang riickgekoppelt. 

3. Sequenzer- Ansatz: Ein Sequenzer mit minimalem Befehlssatz fiihrt die Schleife aus (0603a/b). Dabei sind die 
20 Zcllcn der Ziclbausteinc so ausgcstaltct, daB sic den cntsprechendcn Sequenzer beinhalten (vgl. Fig. 1 la/b). 

Durch eine geeignete Zerlegung von Schleifen kann deren Ausfiihrung ggf. optimierl werden: 

1. Unter Verwendung von Optiinierungsrnethoden nach dein Stand der Technik laBt sich haufig der Schleifen- 
25 rumpf, also der wiederholt auszufuhrende Teil, dadurch optimieren, daB bestimmte Operationen aus der Schleife 

entfemt werden und vor oder hinter die Schleife gestellt werden (0604a/b). Dadurch wird die Menge der zu sequen- 
cenden Befehle erheblich reduziert. Die entfemten Operationen werden nur einmal vor bzw. nach Ausfiihrung der 
Schleife durchlaufen. 

2. Eine wcitcrc Optimicrungsmoglichkeit ist das Teilcn von Schleifen in mehrere kleinere oder kurzcre Schleifen. 
30 Dabei findet die Teilung derart statt, daB mehrere parallele oder mehrere sequentielle (0605a/b) Schleifen entstehen. 

Fig. 7 verdeutlicht die Implementierung einer Rekursion. Dabei werden dieselben Ressourcen (0701) in Form von 
Zellen fur jede Rekursionsebene (1-3) verwendet. Die Ergebnisse einer jeden Rekursionsebene (1-3) werden beim Auf- 
bau (0711) in einen nach dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. GLeichzeitig mit dem Abbau 
35 (0712) der Ebenen wird der Stack abgebaut. 

Hochsprachenbeispiele 
Ein Modul kann beispielsweise folgendermaBen deklariert werden: 

40 

JBodule example! 

•r 

input (varl, var2 : tyi; var3 : tya) . 
^5 output (real, res2 : tyj) , 
bagxn 

• • 9 

^° rogioter <regnainel> (resl) . 

regiatar <regname2> (re52) , 
53 tarmiaatee (resl & res2; 1). 

and* 

module kennzeichnet den Beginn eines Modules. 
60 input/output definiert die Ein-/Ausgangsvariablen mit den lypen IYq. 
begin . . . end markicren den Rumpf des Modules. 

register <regnamel/2> iibergibt das Ergebnis an den Output, wobei des Ergebnis in dem durch <regnamel/2> spezifizier- 
ten Register zwischengespeichert wird. <regnamel/2> ist dabei eine globale Referenz auf ein bestimmtes Register. 
Als weitere Ubergabemodi an den Output stehen beispielsweise folgende Speicherarten zur Verfiigung: 
65 fifo <fifoname>, wobei die Daten an einen nach dem FTFO-Prinzip arbcitcndcn Speicher ubeigeben werden. fifoname iBt 
dabei eine globale Referenz auf einen bestiriunten, im FIFO-Modus arbeitenden Speicher. tenninate@ wird dabei um 
den Parameter bzw. das Signal. "fifofuU" erweitert, der/das anzeigt, dafi der Speicher voll ist. 

Slack <stackname>, wobei die Daten an einen nach dem Stack-Prinzip arbeitenden Speicher iibcrgcben werden. stack- 
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name ist dabei eine globale Referenz auf einen bestimmlen, im Stack-Modus arbeitenden Speichen 
terminate® unterscheidet die Programmierung entsprechend des erfindungsgemal3en Verfahrens von der herkommli- 
chen sequentiellen Programmierung. Der Befehl definiert das Abbruchkriterium des Modules. Die Eigebnisvariablen 
resl und res2 werden von terminate® nicht mit ihrem tatsachlichen Wert evaluiert, statt dessen wird nur die Gultigkeit 
der Variablen (also deren Statussignal) gepriift. Sind beide Variablen gultig, terminiert das Modul mit dem Wert I. Das 5 
bedeutet, ein Signal mit dem Wert 1 wird an die ubeigeordneten Ladeeinheit weiteigeleitet, woraufhin die iibeigeordne- 
ten Ladeeinheit das nachfolgendc Modul ladt. 

module exdrople2 

10 

input {varl, var2 : ty3; var3 : ty2) . 
output (resl : ty^) . 

rogioter <regnaroel> (varl, var2) . 



«i*o <fifonamel> (resl, 256) . 
tMsminatse (fifofull«fifonainel>) ; 1), 

end. 25 

register wird in diesem Beispiel uber inpul-Daten definiert Dabei ist <regnamel> derselbe wie in example 1. Dies be- 
wirkt, daB das Register, das die output-Daten in examplel aufninmit, die input-Daten fiir example2 zur \ferfUgung stellt. 
fifo definiert cincn FIFO-Spcichcr der Ticfc 256 fur die Ausgangsdaten resl. Das Full-Hag (fifofull) des FIFO-Spcichcrs 
wird in terminate® als Abbruchkriterium verwendet. 30 

nodulo main 

input (inl, in2 : ty^; in3 : ty^) . 

<»tput (outl : ty4). 

begin 

dttfiae <regnarael> : register (234) • 4o 
dofiae <regnaine2> : register (26) . 
define <fifonamel> ; fifo (4) • 



(varl2, var72) = call examplel (inl, in2, in3) . 
{outl) = call example2 (varl2, var72, var243) , 



signal (outl). 

55 

tazuLiiatoe (exainple2) . 
end, 

define definiert eine Schniltstelle fur Daten (Register, Speicher, etc.). Bei der Definition werden die erforderlichen Res- 60 
sourccn, sowic die Bczeichnung der Schnittstcllc angegebcn. Da die Ressourcen cindcutig angegcbcn werden und nur 
einmal verwendet werden konnen, ist die Definition global, d, h. die Bezeichnung gilt fUr das gesamte l^ogramm. 

call ruft ein Modul als Unterprogramm auf. 

signal definiert. ein Signal als Ausgangssignal, ohne daB eine Zwischenspeicherung verwendet wird. 

Durch terminate® (examplc2) wird das Modul main terminiert, sobald das Unterprogramm examplc2 terminiert. 65 
Durch die globale Deklaration "define ..." ist es prinzipiell nicht mehr notwendig, die so definierten input/output Si- 

gnale in die Schnittstellen-Deklaration der Module aufzunehmen. Die entsprechend modifizierten Beispiel-Module wiir- 

dcn dann folgcndcrmaBcn ausschen: 
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5 Die Zustandsinformationen des Prozessormodells 

Zur Bcstimniung der Zustande innerhalb eines Graphen werdcn die Statusrcgistcr dcr cinzclncn Zellen (PAEs) Uber 
ein zusatzlich zum Datenbus (0801) existierendes Status-Bussystem (0802) alien anderen Rechenwerken zur Verfugung 
gestellt (Fig. 8b). Das bedeutet, da6 eine Zelle (PAE X) die Statusinformation einer anderen Zelle (PAE Y) evaluieren 
10 kann und dementsprechend die Daten vcrarbeitet, Um den Untcrschicd zu bcstchendcn Paiallerechnersystemen zu ver- 
deuUichen, ist in Fig. 8a der Sland der Ibchnik angegeben. Dabei ist ein Multiprozessorsystem gezeigt, dessen Prozes- 
soren ubereinen gemeinsamen Datenbus (0803) miteinander verbiinden sind. Ein explizites Bussystem fur den synchro- 
ncn Austausch von Daten und Status existicrt nicht. 

Abschlie6end soli angemerkt werden, daB je nach Aufgabe sowohl derDatenfluBgraph, als auch der KontroUfiuBgraph 
LS entsprechend dem beschriebenen Verfahren behandelt werden kann. 

Erweiterungen in der Hardware gegenuber PAC'IX)2 und PACIW 

Durch PACT02 und PACT04 ist der Stand der Technik in Bezug apf die Konfigurationseigenschaften von Zellen (PA- 
20 Es)dcfinicrt und vcroffcntiicht in DE 196 51 075 (PACT02) sowie in DE 196 54 846 (PACT04). 
Dabei soil auf zwei Eigenschaften eingegangen werden: 

1 . Eincr PAE ist gcmaB PACT02 cin Satz von Konfigurationsrcgistcm zugcordnet, der cine Konfiguration beinhal- 
let (Fig. 8a). 

25 2. Eine Gruppe von PAEs kann gemaB PACT04 auf einen Speicher zum Speichern oder Ixsen von Daten zugreifen 
(Fig. 8b). 

Aufgabe ist es, 

30 a) ein Verfahren zu schaffen, das das Umkonfigurieren von. PAEs beschleunigt und zeitlich von der ubergeordneten 
Ladeeinheit entkoppelt, und 

b) das Verfahren so auszulegen, daB gleichzeitig die Moglichkeit geschaffen wird Uber mehrere Konfigurationen zu 
Sequenzen. 

35 

Entkopplung dcr Konfiguradonsrcgistcr 

Das Konfigurationsregister wird von der ubergeordneten Ladeeinheit (CT) entkoppelt (Fig. 9), indem ein Satz von 
mchrercn Konfigurationsregistem (0901) verwendet wird. Immcr genau cincs dcr Konfigurationsregister besdnunt se- 
40 lekti v die Funktion dar PAE. Die Auswahl des akti ven Registers wird uber einen Multiplexer (0902) durchgefuhrt. In je- 
des der Konfigurationsregister kann die CT beliebig schreiben, sofem dieses nicht die aktuelle Konfiguradon der PAE 
bestinunt. Welches Konfiguradonsregister von 0902 selektiert wird kann durch verschiedene Quellen besdmmt werden: 

1. Ein beliebiges Status-Signal oder eine Gruppe beliebiger Status-Signale, die iiber ein Bussystem (0802) an 0902 
45 gcfUhrt werden (Fig. 9a). Die Status-Signalc werden dabei von bclicbigen PAEs gcncricrt oder durch exteme An- 

schlusse des Bausteins zur Verfugung gestellt (vgl. Fig. 8). 

2. Das Status-Signal der PAE, die von 0901/0902 konfiguriert wird, dient zur Selekdon (Fig. 9b). 

3. Ein von der ubergeordneten CT generiertes Signal dient zur Selektion (Fig. 9c). 

50 Dabei ist es inoglich wahlweise die eingehenden Signale (0903, 0904, 0905) iriitlels eines Registers ftir einen be- 
sdmmten Zeitraum zu speichern. 

Durch den Einsatz mehrere Register wird die CT zeidich entkoppelt. Das bedeutet, die CT kann mchrcrc Konfigura- 
tionen "vorladen", ohne daB eine direkte zeitliche Abhangigkeit besteht. 
Ixdiglich das selektierte Register in 0901 noch nicht geladen ist, wird mit der Konfiguration der PAE so lange gewar- 
55 tcl, bis die CT das Register geladen hat. Um festzustcllcn, ob ein Register cine giiltigc Informadon bcsitzt kann cin 
lid-Bit" (0906) pro Register eingefuhrt werden, das von der CT gesetzt wird. Isl 0906 bei einem selekderten Register 
nicht gesetzt, wird iiber ein Signal die CT zum schnellstmdglichen Setzten des Registers aufgefordert. 

Das in Fig. 9 beschriebene Verfahren ist einfach zu einem Sequenzer erweiterbar (Fig, 10), Dazu wird ein Mikrokon- 
troller (1001) zur Ansleuerung der Selekdonssignale des MuUiplexers (0902) verwendet. Der Sequenzer besdmmt dabei 
60 abhangig von der aktuell selekderten Konfiguradon (1002) und einer zusatzlichen Statusinformation (1003/1004) die 
nachstc zu selekdcrende Konfiguration. Dabei kann die Statusinformation 

(a) der Status der Status-Signal der PAE, die von 0901/0902 konfiguriert wird sein (Fig. 10a). 

(b) ein beliebiges iiber 0802 zugefiihrtes Statussignal sein (Fig. lOb). 
65 (c) cine Kombinadon aus (a) und (b) sein. 

Zum einfachen Verstandnis kann 0901 als ein Speicher betrachtet werden, wobei Uber 0902 ein Befehl von 1001 adres- 
siert wird. Die Adrcssicrung ist dabei abhangig vom Befehl selbst und von einem Statusrcgistec Insoweit entspricht der 
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Aufbau einer "von Neumann" Maschine, mil dem Unlerschied, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht zu verwenden (vgl. Fig. 9) 

(b) daB das Slatussignal nicht von deni dem Sequenzer zugeordnelen Rechenwerk (PAE) generiert werden inuB, 
sondern von einem beliebigen anderen Rechenwerk stammen kann (vgl. Fig, 10b). 5 

Wichtig ist, daB dcr Sequenzer dabei Spriinge, insbcsonderc auch bedingtc Spriingc, innerhalb von 0901 ausfiihrcn 
kann. 

Ein weiteres zusatzliches oder alternatives Verfahren (Fig. 1 1) zum Aufbau von Sequenzem innerhalb der genannten 
Bausteine ist die Verwcndung dcr intcrncn Datenspcichcr (1101) zum Speichem dcr Konfigurationsinformation fiir eine lO 
T^AE. Dabei wird der Datenausgang eines Speichers auf einen Konfiguralionseingang einer PAE geschaltel (1102). Die 
Adresse (1103) fiir 1101 kann dabei von derselben PAE oder einer beliebigen anderen generiert werden. 

Bci diescm Verfahren ist der Sequenzer nicht fest implementicrt, sondern wild durch cine PAE oder cine Gnippe von 
PAEs nachgebildet. 



Patentanspriiche 
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1. Verfahren zum Ausfiihrcn von Programmen auf einem Baustein mil ein- oder mehrdimensionaier ZellsUnktur, 
dadurch gckennzcichnct, dass Datenfluss- oder KontroUflussgraphen in zeitlich getrennte Tfeilgraphen partitioniert 
werden und scqucnticli auf den Baustein abgebiidet und ausgcfuhrt werden. 20 

2. Hardware mil entkoppeltem Konfigurationsregistcr 
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